除了SRA,数据上传国内的GSA也是极好的(详尽版操作指南)
前面我们发表了关于NCBI的SRA数据库的上传指南,一步一图详解最新的SRA数据上传方法(内含常见报错解决方法) | 微生物专题。
但相较于SRA,GSA更加安全便捷。GSA系统遵循国际核苷酸序列数据联盟相关数据库建设标准,有效缓解了我国生命组学数据汇交、存储与共享困难的问题,为我国国家生物信息中心的建设奠定了坚实的基础。
(https://ngdc.cncb.ac.cn/gsa/)。
下面我们就通过实操,介绍一下将数据上传至GSA数据库的注意事项,以飨读者。
在上传数据之前,首先要找到原始序列数据,以联川生物的数据为例,文件名称一般为Data的压缩包,里面是某项目中所有的样本的原始数据的序列文件,需要先把Data文件夹解压,每个样本有一个独立的文件夹,文件夹里面是需要上传的原始数据,文件夹里的文件不需要再解压,可以直接上传。
首先,打开GSA注册链接
https://ngdc.cncb.ac.cn/account/register?service=https://ngdc.cncb.ac.cn/gsa/login(如果已有账号跳过该步骤)。
注意:注册完成后,GSA 会往填写的邮箱发激活邮件,注意查收并在24小时内点击邮件中的网址进行激活。
点击链接
https://ngdc.cncb.ac.cn/gsub/submit/gsa/list
或点击提交上传数据;
点击BioProject提交入口
点击新建BioProject
上述步骤为准备工作,此为上传数据第一步--提交者信息,完成后点【保存并进入下一项】 完成该步骤;
注意事项:标*为必填项(注册信息填写的比较详细时,此步骤系统会自动填充);
确认数据释放时间,并填写项目标题、项目说明ing信息,完成后点【保存并进入下一项】 完成该步骤;
注意事项:标*为必填项,每个条目均有注释信息,可以根据注释信息填写,无项目批准号的可以填写N/A
按照您的样本类型进行勾选,完成后点【保存并进入下一项】 完成该步骤;
Tips:微生物项目数据类型一般选择Metagenome(此处的宏基因组不是特指宏基因组项目,是指宏观的,不是单独培养的),样本范围选择环境,原因是混合的物种,非单独培养;
若文章已经发表,可以填写Pubmed ID或DOI号,但大部分情况下都是在文章发表前上传的原始数据,所以此步骤可以直接跳过;
核对信息无误后点击提交,特别是释放日期等信息;
上面的步骤是填写BioProject信息,接下来是BioSample的填写;
这一步与BioProject类似;
需要填写前面新建的BioProject编号;
Tips:点击项目编号可以自动识别已创建的BioProject编号。
根据实际情况选择类型,微生物项目一般选择“Metagenome/Environmental Sample”,根据实际样本选择具体条目;
下载模板填写完成后上传,有示例文件可以参考;
注意:“绿色标题列”为必填项,“蓝色标题列”为至少选填其中一项,“灰色标题列”为选填项,如果无法提供,可以为空。
上传后需点击校验,通过后,完成后点【保存并进入下一项】 完成该步骤;
核对提交的信息是否有误,完成后点【保存并进入下一项】 完成该步骤;
重点核查内容:项目编号,发布日期及样本名称等信息。
选择GSA数据库上传我们的微生物数据;
已创建BioProject和BioSample,新建GSA即可;
提交者信息与上面的步骤一致,不过多赘述
填写标题、描述信息及BioProject,已新建BioSample;
完成后点【保存并进入下一项】 完成该步骤;
GSA批量表格由两部分组成Experiment和Run表,同样有示例文件,需要注意的是微生物项目的测序平台等信息,Experiment sheet具体信息如下:
表格中的信息根据具体项目情况填写,此为扩增子项目的参数,宏基因组的测序技术选择“WGS”,建库方式为“RANDOM”,读长为150bp;
注意:ID列需为类型的首字母开头,下载的模板中包含第一个ID号,下拉填充和即可。
Run sheet中需要注意的是需要填写Experiment sheet中的ID号,文件名称要与手机压缩包名称一致,需要填写md5值;
注意:上传双端文件时,需在*File name 2处填写R2端结果。
完成后点【保存并进入下一项】 完成该步骤;
(1)选择FTP上传
推荐使用FTP上传,传输过程中较为稳定。下载FileZilla软件(可点击百度网盘链接获取安装包,链接:
https://pan.baidu.com/s/1-G9d706FAvcdF1LLPSnObA?pwd=n0lu
提取码:n0lu),登录名、账号和密码见上图,端口写21即可。
Tips:此处的账号、密码与登录GSA的一致。
主机填写Address,若读取目录列表失败,可以在远程站点处手动输入路径。
(2)使用 Aspera 命令行进行上传
需要注意的是获取 key file,放置绝对路径,以及在相应文件夹上传所有样本的原始数据,然后运行 Aspera 命令行进行数据上传;
(3)使用Aspera Connect浏览器插件上传文件
网址均含有详细说明,可根据说明操作实现数据上传;
上传完成后点击【保存并进入下一项】 完成该步骤;
核对提交的原始数据是否正确,若有问题可以修改,若没有问题可以点击提交;
提交后可以看到项目信息及状态:
根据官方声明,数据信息与文件审核归档约需要 1-2 天(数据量越大相应所需时间越长,微生物项目的数据一般不是特别大,时间上不会特别久),归档成功后注册的邮箱会收到一封通知邮件,若有问题也将在邮件中告知,请及时关注邮箱;
在归档完成前若需修改、补充或删除,可以通过查找编号进入修改页面;
若归档完成之后修改和补充,需要想GSA 官方邮箱(gsa@big.ac.cn )联系。
以下是在售后过程中常见的一些问题,您在上传原始数据时若遇到报错,可以重点排查以下内容:
1.上传的两个文件中分析名称对应不上
在Excel填写时,经常使用下拉填充,就会导致两个文件中的内容不一致,除了分析名称还有其他的内容也要注意这个问题。
2.GSA_Template.cn.xlsx文件的问题
常见的是只填写了一个sheet,或者Run sheet中的ID号与Experiment sheet中的对应不上,上传时若出现某行缺元素,某些是必填之类的的提示,很有可能是少写了一个sheet;
若出现某元素找不到,大概率是ID号没对应上。
3.MD5值问题
Run sheet中MD5值与实际文件的MD5值不符,此问题多为上传完成后,通过邮件告知,会提示哪些样本的MD5值不匹配。
Tips:所有的报错均有相关提示,且有示例文件,上传过程中需仔细核对上传的表格及实际的文件名称。
所见即所得,绘图高规格联川云平台,让科研更自由